集成学习实战 [Ensemble Meth...

  • 书籍语言:简体中文
  • 下载次数:8266
  • 书籍类型:Epub+Txt+pdf+mobi
  • 创建日期:2024-10-02 09:13:22
  • 发布日期:2025-09-07
  • 连载状态:全集
  • 书籍作者:高塔姆·库纳普利
  • 运行环境:pc/安卓/iPhone/iPad/Kindle/平板

内容简介

  集成学习通过自动对比多个模型的输出,将输出结合起来,融合成强大的集成模型,得出zui优结果。集成学习发挥“集体智慧”,结果更准确,克服了单一模型的局限性。这种创新方法能够综合多个视角的响应;即使在没有大规模数据集的情况下,也能给出可靠的预测结果。
  《集成学习实战》呈现同时应用多种机器学习方法的实用技巧。每章都列举一个独特案例(如医学诊断、情感分析等),展示一个功能完备的集成方法。《集成学习实战》不探讨深奥的数学知识,所讲内容浅显易懂,代码丰富,供你轻松进行实验!
  主要内容:
  Bagging法、提升法和梯度提升法
  分类、回归和检索方法
  集成方法的模型和决策可解释性
  特征工程和集成多样性
  阅读门槛
  具有机器学习经验的Python程序员。

作者简介

  Gautam Kunapuli,拥有逾15年的学术界和机器学习行业经验,重点研究人机协作学习、基于知识和建议的学习算法,以及针对机器学习难题的可扩展学习。
  
  郭涛,主要从事人工智能、现代软件工程、智能空间信息处理与时空大数据挖掘分析等前沿交叉研究。已经出版多部译作,包括《深度强化学习图解》《机器学习图解》和《Effective数据科学基础设施》。

下载地址

序言

  近些年,深度学习在学术界和产业界大放异彩,取得了巨大成功;另外,迁移学习、集成学习和强化学习等先进的机器学习模型也崭露头角,出现了百花齐放、百家争鸣的局面。其中集成学习是颇受青睐的机器学习方法之一。集成学习的主要思想是采用群体智慧决策方式,将多个机器学习算法通过不同方式和策略集成起来,因为集成的多个机器学习结果比单个机器学习具有更好的泛化性和更高的精确度。
  联合多个模型解决问题的思想具有悠久的历史。20世纪90年代以来,集成学习一直是热门的研究课题,近些年在诸多机器学习算法竞赛和数据科学竞赛中展现出了惊人的效果。目前,集成学习将几种机器学习技术结合成预测模型的元算法,以减小方差和偏差以及改进预测。根据集成方式和学习模式,学术界已经形成两种集成范式,分别是同质集成(homogeneous ensemble)和异质集成(heterogeneous ensemble)。根据基础分类器的生成方式,可以形成串行生成基础分类器(串行集成方法)和并行生成基础分类器(并行集成学习)。典型代表有AdaBoost 和Bagging。本书详细介绍了LogitBoost、LightGBM、XGBoost、CatBoost等集成学习变体模型。
  目前,关于集成学习著作比较少,主要是周志华教授团队编写的Ensemble Methods Foundations and Algorithms。不过,该书的出版时间较早(2012年出版英文,2020年出版了中文译著),未涉及近10年来集成学习的前沿理论和技术;另外该书主要偏向前沿理论,缺少算法实现和案例配套。
  本书的引进可谓恰逢其时,填补了集成学习领域著作方面的不足。本书图文并茂地对深奥的集成学习理论和方法进行描述,并结合大量的案例和应用程序,引导读者边思考边实践,从而逐步加深对集成学习的理解,并将这些新方法、新理论和新思想用于自己的研究。本书梳理了集成学习近20年来的前沿理论和技术,主要从集成学习基础知识、集成方式和集成学习数据集制作、特征提取和可解释性三个方面进行了专题讨论,还讨论集成学习理论以及与概率机器学习和深度学习的结合策略。本书包含大量的图、案例以及Python代码实现,读者可以一边阅读一边动手实践。本书面向计算机、人工智能和大数据专业的高年级本科生和研究生,也面向对机器学习与集成学习感兴趣的研究人员和企业工程师。
  在翻译本书的过程中,得到了很多人的帮助。成都文理学院外国语学院何静老师、电子科技大学外国语学院研究生尹秋委、西南交通大学外国语学院英语专业钱益萱和电子科技大学外国语学院研究生相思思参与了本书的审校。最后,感谢清华大学出版社的编辑,他们完成了大量的编辑与校对工作,保证了本书的质量,使本书符合出版要求。在此深表感谢。
  由于本书涉及的广度和深度较大,加上译者翻译水平有限,在翻译过程中难免有不足之处,欢迎各位读者批评指正。

目录

第Ⅰ部分集成学习基础知识
第1章 集成方法:炒作还是福音
1.1 集成方法:集体智慧
1.2 关注集成学习原因
1.3 单个模型中的拟合度与复杂性
1.3.1 决策树回归
1.3.2 支持向量回归
1.4 第一个集成模型
1.5 集成方法的术语和分类
1.6 小结

第Ⅱ部分 基本集成方法
第2章 同质并行集成:Bagging法和随机森林
2.1 并行集成
2.2 Bagging法:Bootstrap结合算法
2.2.1 直觉:重采样和模型结合
2.2.2 实现Bagging法
2.2.3 使用scikit-leam实现Bagging法
2.2.4 使用并行化进行更快的训练
2.3 随机森林
2.3.1 随机决策树
2.3.2 使用scikit-learn实现随机森林
2.3.3 特征重要性
2.4 更多同质并行集成
2.4.1 Pasting
2.4.2 随机子空间和random patch法
2.4.3 极度随机树
2.5 案例研究:乳腺癌诊断
2.5.1 加载和预处理
2.5.2 Bagging法、随机森林和极度随机树
2.5.3 随机森林中的特征重要性
2.6 小结
第3章 异质并行集成:结合强学习器
3.1 异质集成的基础估计器
3.1.1 拟合基础估计器
3.1.2 基础估计器的单个预测
3.2 通过加权结合预测
3.2.1 多数投票
3.2.2 准确率加权
3.2.3 熵加权法
3.2.4 Dempster-Shafer结合
3.3 通过元学习结合预测
3.3.1 Stacking
3.3.2 通过交叉验证进行Stacking
3.4 案例研究:情感分析
3.4.1 预处理
3.4.2 降低维度
3.4.3 blending分类器
3.5 小结
第4章 顺序集成:自适应提升
4.1 弱学习器的顺序集成
4.2 AdaBoost:自适应提升
4.2.1 直觉法:使用加权样本进行学习
4.2.2 实现AdaBoost
4.2.3 使用scikit-learn的AdaBoost
4.3 AdaBoost在实践中的应用
……
第Ⅲ部分 集成之外:将集成方法应用于你的数据
结语

短评